Day18 MCTS優化

2024 iThome 鐵人賽

DAY 18

AI/ ML & Data

猴子也能懂的電腦對局 : 30天打造自己的對局AI系列第 18 篇

16th鐵人賽

marsgoat

2024-10-02 23:46:06

983 瀏覽

分享至

本來想棄賽了，立了一個Flag，如果明天也放假的話就繼續寫...
所以只好再撐一天了，是說放公式也太麻煩了吧...

今天來介紹一些MCTS的優化方式，或是一些針對不同遊戲的策略改進。

我們再看一下 MCTS 的四個步驟，昨天著重於Selection的部分，畢竟如何選點真的影響非常大，今天也會介紹到其他階段的優化。

Simulated Annealing

Simulated Annealing (模擬退火法)也是用來平衡 exploration 與 exploitation 的一種方式，透過一個「溫度常數」（temperature constant, K）來調整節點選擇時的隨機性。具體做法是在進行模擬過程中，根據分數與當前節點的差異來決定挑選節點的機率，而溫度常數 K 控制了這個過程中的隨機程度。

選擇不同節點的機率：

$P_i(K)=\frac{e^{K v_i}}{\sum_j e^{K v_j}}$

這表示節點 $i$ 被選中的機率與它的分數 $v_i$ 以及溫度常數 K 有關。當 K = 0 時，所有節點被選中的機率是均等的（即隨機選擇），而當 K 增加時，分數較高的節點被選中的機率也會隨之上升。

模擬退火法通過逐漸降低 K 值，使演算法從初期的隨機探索逐漸轉向更專注於高分節點的探索。這有助於在早期保持廣泛的探索，避免陷入局部最優，隨後集中在最有潛力的路徑上。

All Move As First (AMAF)

AMAF (手順不羈法)，其目的是在模擬結束後(進入Backpropagation)，除了更新當前經過的節點外，還更新該節點的其他同級節點，以充分利用模擬中的資訊。這樣做雖然會引入偏差，但能加速樹的成長，並提高演算法對於勝率的信心。

某些走步的價值不一定會因為執行的具體時機不同而有太大的變化。因此，即便某個動作沒有立即執行，它的效益可以被用來更新目前的估值。具體而言，在一次模擬中，所有參與過的動作都可以被視作是「第一個動作」來更新其評估值。

這邊我們用五子棋當範例來看，黑棋下在 A，就會勝利。

然而黑棋想~~皮一下~~先下在 X，那也不影響他的勝利，所以 AMAF 模擬到 A 這步時也同時更新同級其他節點的分數。

由於一次模擬的結果可以同時更新多個節點，AMAF 主要的優勢在於它可以讓模擬的收斂速度加快，可以有效提升效能。
但是有時候手順也是很重要的，我們再來看看上面的範例，如果黑棋是下在其他毫不相干的地方呢？
白棋下一手一定會去擋在 A 點的，所以這種時候模擬的品質就不是很好。
還有比如圍棋中的打劫，手順不對有時候還是犯規的，又或是象棋、圍棋一些詰棋，手順就非常的重要，次序錯了就無法獲勝，然而 AMAF 並不在意這些次序，尤其在終盤時表現會較差，犧牲了一些模擬品質，但速度更快。